我鐵人賽持續已經進入尾聲,第21天啦!這中間的過程大部分是對資料的完善,到目前為止,在處理資料時,我們探討的範圍包含:
到此步驟,也更接近了進到機器學習流程的階段。在此[特徵選擇]系列中,我們將討論稱為特徵選擇的特徵工程的子環節,這是在機器學習流程從表徵中挑選出最佳的表徵組合。 更正式的定義,給定N個特徵,我們從中找出K個子表徵,此K個表徵能幫助我們改善我們的機器學習流程;加強我們的機器學習預測精度。我們的資料中可能含有品質較低的表徵或是雜訊,特徵選擇的目的是讓我們資料程度上的過濾雜訊並找出有助於機器學習的優良表徵。本章的大部分內容都致力於我們可以找到這些表徵子集的方法以及這些方法的基礎。本系列特徵選擇方法分為兩大類:
其中包含的子主題為:
最近每天在工作上都有許多挑戰,導致下班後的寫文章時間受到擠壓,時常在半夜了才開始趕文章,心裡覺得累累的。也是這個原因,本來異想天開要挑戰的第二個鐵人賽主題"機率論"在第二天就腰斬了,因為要將數學寫的直觀好懂往往最花腦力,寫第一篇就花了三小時半左右的時間自製圖片跟想解說範例,回頭想想是自己高估了自己的能力。在剩下的時間我將會集中精神放在完善特徵工程的文章上,我也將回頭整理過往的文章,調整到更直觀好懂的形式。
最後,因為士初次參加鐵人賽,還在培訓期間無法回復人們對我文章的留言(奇怪的限制),如果您有任何對文章的建議都可以直接留言(我都會看),或是傳訊息給我,非常感謝。